Capítulo 2 Analisis Exploratorio de Datos
2.1 Selección de Usuario
Ya que en la base de datos existen múltiples series de tiempo asociadas a cada usuario en el registro. Para simplificar el análisis y los temas tratados en este trabajo, se seleccionará un usuario de manera aleatoria. Este usuario servirá como base para desarrollar los análisis y conclusiones que se presentarán en las siguientes secciones.
El usuario selccionado al azar tiene user.key 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246
| Variable | Descripción |
|---|---|
| user.key | Llave de usuario que permite identificar al usuario. |
| datetime | Fecha y hora en que el medidor realizó la lectura. |
| meter.reading | Lectura acumulada del consumo en metros cúbicos. |
| diff | Diferencia de consumo respecto a la medición anterior. |
2.2 Rango de las Mediciones
primeros 5 registros.
## user.key datetime meter.reading diff
## 1 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 23:53:55 553681 7
## 2 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 22:53:55 553674 300
## 3 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 09:53:59 553374 56
## 4 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 08:53:59 553318 141
## 5 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 19/05/2017 07:53:59 553177 18
últimos 5 registros
## user.key datetime meter.reading diff
## 16186 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 05:15:06 26322 1
## 16187 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 04:15:06 26321 1
## 16188 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 03:15:06 26320 23
## 16189 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 02:15:06 26297 1
## 16190 4f7729cf-f0fc-4333-bea7-4ee4aeaaa246 01/01/2015 01:15:06 26296 0
El análisis de los datos revela que los registros fueron tomados en intervalos de una hora. El período de recopilación abarca desde el año 2015 hasta 2017 y ya se han calculado la diferencia en los consumos.
2.4 Formato de las variables
## user.key datetime meter.reading diff
## "character" "character" "numeric" "integer"
podemos observar que la variable “datetime” no esta en formato de fecha.
2.5 Estadisticas Descriptivas
Para nuestro análisis descriptivo tendremos en cuenta la variable ‘diff’ ya que representa el consumo realizado en determinada hora por el medidor.
| Variable | Descripción |
|---|---|
| media | 32.57474 |
| mediana | 12.00000 |
| desv. estandar | 60.87880 |
| Minimo | -322.00000 |
| Maximo | 2152.00000 |
| Rango | 2474.00000 |
| Coef. Variacion | 186.88960 |
| Q1 | 2.00000 |
| Q2 | 12.00000 |
| Q3 | 32.00000 |
El análisis revela valores de consumo anormalmente elevados en determinadas horas, lo que evidencia la presencia de valores atípicos y una considerable variabilidad en la serie temporal, ademas de valores negativos los cuales se imputaran.
2.7 Imputar Valores Negativos
## Número de valores negativos después de imputar: 0
Se adicionara el consumo por año
| anio | promedio_consumo | varianza_consumo |
|---|---|---|
| 2015 | 36.18 | 4706.58 |
| 2016 | 28.66 | 2613.43 |
| 2017 | 33.22 | 3729.28 |
2.8 Resumen Analisis Estadistico
Se observa que el consumo de agua presenta una notable variabilidad y numerosos valores atípicos. El rango de consumo oscila entre 0 y 2152 metros cúbicos por hora. Sin embargo, el valor promedio general se encuentra alrededor de los 33 metros cúbicos, lo cual sugiere que, aunque existen registros extremos de consumo, la mayoría de los valores se concentran en niveles mucho más bajos. Esta disparidad podría indicar posibles irregularidades en los datos o un comportamiento inconsistente en el consumo de agua.
2.9 Analisis Grafico
En este apartado analizaremos los diferentes comportamientos de la variable “diff” en el tiempo, haciendo uso de gráfico.
Boxplot

Consumo Anual

se observa una gran presencia de registros atipicos por cada uno de los años registrados.
| anio | total | outliers | porcentaje |
|---|---|---|---|
| 2015 | 7059 | 929 | 13.16 |
| 2016 | 6799 | 739 | 10.87 |
| 2017 | 2332 | 308 | 13.21 |
2.10 Serie de Tiempo
Consumo General
<<<<<<< HEADConsumo anual
=======Consumo anual
>>>>>>> b759291 (Renderizado actualizado del libro)2.11 Resultados Analisis Grafico
Se observa la presencia de consumos elevados, lo cual se ve reflejado en la existencia de múltiples valores atípicos que sobresalen del comportamiento general de la serie.
La serie presenta picos de consumo significativamente altos, evidenciando una variabilidad considerable y la presencia de numerosos valores atípicos que podrían estar asociados a eventos específicos o errores de medición.
A través de los años se observa que los consumos por mes van disminuyendo.
2.12 Medias Moviles
Dado que los registros de consumo de agua se han tomado en intervalos de una hora, se ha decidido utilizar un parámetro de k=24 para las medias móviles, lo que corresponde a un promedio de 24 horas, es decir, un promedio diario. Esta elección permite suavizar las fluctuaciones horarias y capturar las tendencias generales del consumo de agua a lo largo de cada día. De este modo, se obtiene una representación más clara y coherente del comportamiento del consumo en el tiempo, eliminando los efectos de variaciones momentáneas que podrían ser causadas por fluctuaciones o eventos aislados
<<<<<<< HEAD ======= >>>>>>> b759291 (Renderizado actualizado del libro)A partir del gráfico de medias móviles (calculadas como promedios diarios utilizando un intervalo de 24 horas), se observa que el comportamiento general de la serie de consumo se mantiene relativamente estable a lo largo del tiempo. Sin embargo, se identifican dos fechas con variaciones atípicas significativas: el 21 de abril de 2015 y el 30 de diciembre de 2016, en las cuales se registran picos inusuales en el consumo.
2.13 Rezagos

Se observa una clara concentración de puntos en los valores bajos de consumo, lo que indica que la mayoría de las observaciones corresponden a registros con bajo consumo horario. Además, la relación entre el consumo actual y su rezago de una hora no presenta un patrón lineal evidente. Esta falta de linealidad sugiere que no es posible realizar predicciones precisas basadas únicamente en el valor rezagado.
2.14 Estacionalidad
Dado que los registros de los medidores se realizaron de forma horaria desde el 1 de enero de 2015 hasta el 19 de mayo de 2017, es necesario definir adecuadamente el periodo sobre el cual se analizará la estacionalidad, con el fin de identificar posibles patrones recurrentes. No se optó por un análisis mensual, ya que el último mes de la serie no está completo. Además, dado el alto nivel de detalle de los datos (una observación por hora), trabajar a nivel diario u horario podría dificultar la visualización de patrones estacionales debido a la gran cantidad de observaciones. Por esta razón, se decidió realizar el análisis de estacionalidad a nivel semanal.

El gráfico de estacionalidad muestra el comportamiento mensual del consumo de agua para los años 2015, 2016 y 2017. Se observa una cierta regularidad en los años 2015 y 2016, lo que indica un patrón estacional moderado. Sin embargo, en 2017 se detecta una fuerte caída en el mes de mayo, lo que rompe el patrón observado en años anteriores y sugiere una posible anomalía o cambio en la dinámica del consumo.
2.15 Autocorrelaciones
Se realizará un análisis de autocorrelación y autocorrelación parcial con el objetivo de evaluar si los valores pasados influyen significativamente en los valores futuros de la serie. Este análisis permitirá identificar la presencia de dependencias temporales que puedan ser útiles para la modelación y predicción del comportamiento del consumo.


Se realizó el análisis de autocorrelación (ACF) del consumo semanal para evaluar la dependencia temporal entre observaciones. Los resultados muestran una fuerte autocorrelación positiva en los primeros lags, lo que indica que los valores de consumo de una semana están significativamente influenciados por los valores de semanas anteriores. La autocorrelación disminuye de manera progresiva, pero se mantiene significativa hasta aproximadamente 15 semanas, lo que sugiere una estructura persistente en el consumo a lo largo del tiempo.